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摘 要 : 特征 选择 是 大 数据 集 预 处 理 的 重要 方法 ， 能 够 使 后 续 的 数据 分 析 与 处 理 更 加 高 效 准确 。 提 出 了 一 种 基于 遗传 
算法 的 大 数据 特征 选择 算法 。 该 算法 首先 对 各 维度 的 特征 进行 评估 ， 根 据 每 个 特征 在 同类 最 近邻 和 异类 最 近邻 上 的 差 


ee 以 提升 算法 的 搜索 能 力 和 获取 特征 的 准确 性 ; 然后 结合 特征 权 
重 计算 特征 的 适应 度 ，? 度 作为 评价 指标 ， 启 动 遗 传 算 法 获取 最 优 的 特征 子 集 ， 并 最 终 实现 高 效 准确 的 大 数据 特 


征 选 择 。 通 过 实验 分 析 发 现 ， 该 算法 能 够 有 效 减 小 分 类 特征 数 ， 并 提升 特征 分 类 准确 率 。 
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Using genetic algorithm for feature selection optimization on big data processing 
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Abstract: Feature selection is an important method of big data set preprocessing, can make subsequent data analysis and 


processing more efficient and accurate. This paper proposes a novel feature selection method based on genetic algorithm for big 


data processing. Firstly, our method evaluates the features of each dimension, adjusts its weight according to the difference of 
each feature on the similar nearest neighbor and the heterogeneous nearest neighbor, and guides the search of genetic algorithm 
based on the feature weight, thus improves the search ability of the algorithm and the accuracy of feature acquisition. And then 
combines the feature weights to calculate the fitness of the feature, takes fitness as the evaluation index, and starts the genetic 
algorithm to obtain the optimal feature subset, finally achieve an efficient and accurate big data feature selection. The results of 
experiment show that our method can effectively reduce the number of classification features and improve the accuracy of 


feature classification. 
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特征 选择 方法 的 作用 主要 有 三 项 : a) 通过 选择 大 数据 集合 
中 的 部 分 特征 数据 ， 大 大 减少 需要 分 析 和 处 理 数据 规模 ， 降 低 

随 着 互联 网 通信 、 数 据 存储 、 信 息 处 理 等 技术 的 快速 发 展 ， 大 数据 后 期 分 析 和 处 理 的 计算 量 、 复 杂 度 ; b ) 特征 选择 删除 大 

大 数据 量 和 数据 维 数 与 日 俱 增 。 大 数据 集中 往往 包含 上 千 个 特 。 量 不 相关 或 元 余 的 数据 信息 ， 使 得 大 数据 易于 理解 和 解释 ， 更 
征 维度 。 海 量 的 数据 和 特征 维度 包含 着 大 量 的 元 余数 据 和 无 效 。 便于 后 期 的 数据 人 处理; c) 特征 选择 能 够 有 效 降低 大 数据 集 的 维 
特征 ,严重 影响 和 限制 了 大 数据 分 析 与 挖掘 的 性 能 03。 为 解决 度 ， 能 够 克服 海量 维度 对 大 数据 挖掘 的 限制 ， 从 而 提升 机 器 学 
上 述 问题 ， 特 征 选择 通过 从 大 数据 集中 剔除 元 余 信 息 ， 提 取出 习 等 方法 的 准确 性 和 有 效 性 。 特 征 选 择 能 够 降低 存储 空间 ， 计 
具有 代表 性 的 特征 子 集 , 从 而 实现 对 大 数据 规模 和 维度 的 精简 ， ” 算 开销 等 ， 还 能 揭示 大 数据 集中 隐藏 的 潜在 结构 模式 和 规律 
提升 大 数据 分 析 和 处 理 的 效率 。 近 年 来 ， 随 着 大 数据 分 析 与 处 ”对 于 后 期 的 大 数据 挖掘 和 分 析 具 有 重要 促进 作用 。 


全 
nt 
o 


时 技术 逐步 扩展 深入 ， 特 征 选择 方法 开始 受到 研究 者 的 广泛 关 当前 ， 特 征 选 择 方法 主要 包括 包装 法 、 购 入 法 和 过 滤 法 三 
注 ， 特 征 选择 技术 也 被 广泛 应 用 于 大 数据 聚 类 、 文 本 分 类 、 多 ”种 丫 , 幅 入 法 融合 了 过 滤 法 与 包装 法 , 能 够 大 大 缩减 计算 时 间 ; 
媒体 分 析 等 诸多 场景 和 。 但 嵌入 法 集中 在 局 部 空间 内 搜索 ， 履 盖 范 围 有 限 。 文 献 [6] 提 出 

特征 选择 的 核心 是 通过 数据 处 理 方法 提取 代表 性 的 特征 子 了 一 种 改进 多 目标 人 工蜂 群 算法 的 特征 选择 方法 ， 将 大 数据 特 
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征 选 择 问题 转换 为 多 目标 优化 问题 ,从 而 提升 特征 选择 的 效率 。 基于 遗传 算法 的 启发 式 特征 选择 算法 。 该 算法 首先 计算 每 个 特 
文献 [7] 提 出 了 一 种 新 的 特征 子 集 区 分 度 衡量 准则 。 区 别 于 以 往 征 在 同类 最 近邻 和 异类 最 近邻 上 的 差异 度 ， 综 合 调 整 其 权重 ; 
仅仅 考虑 单个 特征 对 区 分 度 指标 的 影响 ， 新 准则 将 所 有 特征 同 然后 结合 特征 权重 计算 特征 的 适应 度 ， 以 特征 适应 度 引 导 和 遗传 
时 纳入 综合 考虑 ， 计 算 整体 特征 对 区 分 度 指标 的 总 体 影响 ， 并 算法 的 变异 和 搜索 ， 以 提升 特征 选择 算法 的 搜索 性 能 ， 并 最 终 
结合 以 支持 向 量 机 作为 为 分 类 工具 ， 引 导 特 征 选择 过 程 。 文 献 实现 高 效 准 确 的 大 数据 特征 选择 。 
[8] 基 于 人 工蜂 群 算法 ， 提 出 了 一 种 改进 的 特征 选择 优化 算法 ， 0 
在 城 少 特征 数量 和 计算 量 的 同时 ， 以 提升 特征 选择 的 效率 和 准 。 2 站 站 传 算 法 的 大 数据 特征 选择 算法 
确 性 。 文 献 [9] 提 出 一 种 基于 多 准则 融合 的 特征 选择 算法 ， 区 别 2.1 算法 架构 
于 传统 的 单一 准则 量化 的 思路 ， 同 时 引入 多 种 准则 选取 数据 特 特征 选择 是 大 数据 预 处 理 一 个 重要 步骤 ， 能 够 有 效 删 除 大 
征 ， 提 升 特征 子 集 多 样 性 和 算法 搜索 能 力 。 然 而 特征 选择 方法 ”数据 中 的 元 余 属性 ， 提 升 大 数据 后 期 处 理 的 效率 ， 并 能 有 效 改 
多 集中 于 考虑 单个 特征 的 重要 性 ， 使 得 特征 重要 性 考量 往往 过 善 大 数据 分 析 的 性 能 。 特 征 选择 的 实质 就 是 通过 搜索 和 迭代， 从 
于 简化 ， 忽 略 了 不 同 特征 之 间 的 关联 性 ， 以 及 关联 性 对 特征 重 大 数据 中 获取 最 具 代 表 性 的 特征 子 集 ， 根 据 评价 准则 评估 其 重 
要 度 的 影响 ， 进 而 降低 了 大 数据 特征 选择 的 整体 性 能 。 要 性 后 再 进行 迭代 选择 ， 直 至 获取 最 优 的 特征 子 集 。 

为 了 实现 高 效 的 特征 选择 ， 本 文 提出 了 一 种 基于 遗传 算法 如 图 1 所 示 ， 特 征 选择 的 迭代 过 程 主要 包括 特征 评 佑 、 子 
的 启发 式 特 征 选择 算法 。 该 算法 首先 对 各 维度 的 特征 进行 评估 ， 集 产 生 和 人 迭代 停止 准则 三 个 重要 步 又。 由 于 大 数据 具有 数据 量 
根据 每 个 特征 在 同类 最 近邻 和 异类 最 近邻 上 的 差异 度 调 整 其 权 大 和 特征 维度 高 等 特点 ， 本 文采 用 了 基于 遗传 算法 的 启发 式 特 
重 ; 然后 结合 特征 权重 计算 特征 的 适应 度 ， 以 适应 度 作 为 评价 征 选择 方法 ， 首 先 综合 每 个 特征 的 同类 最 近邻 和 异类 最 近邻 评 
指标 ， 启 动 遗 传 算法 获取 最 优 的 特征 子 集 ， 并 最 终 实现 高 效 准 估 其 特征 权重 ， 并 结合 该 权重 计算 特征 适应 度 ， 以 此 引导 遗传 
确 的 大 数据 特征 选择 ,特征 选择 算法 能 够 显著 降低 大 数据 分 析 、 算法 的 特征 搜索 ， 提 升 大 数据 环境 下 特征 选择 的 精确 度 。 
处 理 的 计算 时 间 ， 并 提升 大 数据 挖掘、 数据 分 析 的 精确 度 和 有 -| | ,wg | 
效 性 。 本 
1 ”研究 背景 概述 Se 人 特征 子 集 

特征 选择 是 指 从 完整 的 大 数据 集 p 中 ,基于 相应 策略 选择 图 1 特征 选择 的 算法 框架 
出 一 个 kx (kx<M ) 维 的 特征 子 集 让 ， 并 将 该 特征 子 集 应 用 于 Fig.1 Algorithm framework for feature selection 
后 期 的 数据 分 析 、 处 理 过 程 中 。 在 大 数据 特征 选择 过 程 中 ,一 ”2.2 特征 权重 评估 
般 认为 有 两 类 属性 在 大 数据 集中 并 不 必要 : a) 与 目标 数据 不 相 当前 ， 有 大 数据 研究 发 现 00%4225: 在 大 数据 集中 ， 属 于 同一 
关 的 属性 ; b) 相对 于 目标 数据 而 言 ， 存 在 元 余 属 性 。 为 了 把 这 类 型 且 距 离 相 近 的 数据 项 都 具有 相似 的 数据 特征 ， 而 距离 相近 
两 类 不 必要 的 属性 减 到 最 少 ， 需 要 通过 特征 选择 对 大 数据 集 进 ” 但 属于 不 同类 型 的 数据 项 的 数据 特征 差异 较 大 。 
行 精简 。 特 征 选择 是 从 大 数据 集合 中 选择 属性 子 集 的 过 程 ， 通 基于 此 ， 特 征 权 重 评 估算 法 的 设计 流程 为 : 在 大 数据 集 p 
过 辨别 重要 的 属性 ， 去 除 不 相关 或 不 需要 的 属性 匈 余 ， 获 取 精 中 随机 选择 一 个 数据 项 x ， 在 数据 集中 搜索 其 同类 最 近邻 


简 提 炼 后 的 大 数据 。 特 4 


征 选择 在 数据 挖掘 、 机 器 学 习 等 领域 都 


的 预 


有 着 ) 


泛 而 深入 的 


]， 是 大 数据 分 析 和 处 理 领 域 里 非常 重要 


| 


处 到 


近 稀 


E 方 法 。 
FE 来 , 有 研究 发 现 0040 遗 传 算法 (genetic algorithm, GA) 


非常 适 
搜索 方法 ， 该 算法 能 够 直接 对 处 


合 应 | 


于 大 数据 的 特征 选择 问题 。 遗 传 算法 是 一 种 随机 
EE 的 对 象 进行 操 作 ， 不 受 复杂 


的 可 


受 固 有 规则 限制 ， 
泛 的 适应 性 
维度 较 高 而 对 数据 的 内 部 特征 无 从 了 解 时 ， 遗 传 算法 可 以 
通过 启发 式 地 自学 习 获 取 优化 的 特 4 

现 有 大 部 分 
考虑 同类 特征 与 异 
遗传 算 子 的 搜索 过 程 ， 使 得 大 数据 特 
的 怕 


导 性 、 


可 微 性 或 连续 性 等 条 件 的 限制 ， 且 在 过 代 过 程 中 不 


可 依据 选择 概率 自主 调整 搜索 方向 ， 具 有 ) 
和 强大 的 全 局 搜索 能 力 。 在 大 数据 环境 中 ， 当 数据 


全 提取 结果 


寺 征 选 择 算 法 大 多 采用 单个 评价 准则 ， 未 充分 
类 特征 的 权重 的 差别 ， 从 而 无 法 有 效 地 引导 
征 选择 的 遗传 算 子 变异 缺 
的 整体 性 能 。 基 于 此 ， 本 文 提出 了 一 种 


E， 限 制 了 算法 


x() 及 异类 最 近邻 x (1m) ; 分 别 计算 各 维度 的 特征 与 同类 最 近 
邻 的 差异 度 值 ， 与 异类 最 近邻 的 差异 度 值 ， 根 据 两 者 的 特征 差 
异 度 相应 地 调整 其 权重 。 通 过 反复 迭代 ， 最 后 选择 权重 值 最 高 
的 维特 征 组 成 新 的 特征 子 和 


A 
o 


di (x,,x%, 有) 表示 数据 项 x 入 在 特征 f, 上 的 差异 度 。 在 数据 


项 x 与 x, 上 ,两 者 在 特征 维度 六 上 的 差异 度 是 
te 0) 
max(f,) —min(f,) 

在 每 轮 迁 代 过 程 中 , 根据 x 的 ;个 同类 最 近邻 x(h) 和 7 个 
异类 最 近邻 x(m) 在 特征 方 上 的 差异 度 ， 调 整 x 关于 特征 方 上 
的 权 值 ; 

Oo( 力 =aw( 放 -a D/M+ 
Daiff ,x(6), 1M . 
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特征 权重 评估 算法 的 具体 描述 如 下 : 
输入 : 大 数据 集 刀 ， 达 代 次 数 1 ， 子 集 维 数 大 。 
输出 ， 特 征 权重 wo(1…,M) 。 
1: 初始 化 大 数据 集 刀 中 特征 权重 (1,.…,M)=0.5; 


2: for j=] to 1 do 
3: 随机 获取 一 个 数据 项 区 
4: 搜索 x 的 y 个 同类 最 近邻 x(h) 和 个 异类 最 近邻 x(m) 


5: for j=1 to mM do 


ON =0D -dif x), /M+ 


her 


Pdi ,5606), /1M 


cr 


~ 


: end for 


8: 更 新 特征 权重 (1,….,M); 


9: end for 

特征 权重 评估 算法 将 每 个 样本 数据 项 与 其 ; 个 同类 最 近邻 
和 个 异类 最 近邻 相 比 ， 根 据 该 样本 数据 项 与 邻 域 数据 项 在 相 
关 特 征 维度 上 的 差异 度 调 整 其 权 值 。 同 类 差异 度 越 小 ， 异 类 差 
异 度 越 大 ， 说 明 该 特征 维度 越 具 有 代表 性 ， 权 重 增加 ; 同类 差 
异 度 越 大 ， 异 类 差异 度 越 小 ， 说 明 该 特征 维度 越 缺乏 代表 性 ， 
权重 减 小 。 相 比 一 般 的 特征 选择 算法 ， 该 算法 综合 考虑 了 特征 
的 同类 、 异 类 近邻 与 各 维度 的 相关 性 ， 使 得 特征 权重 更 能 客观 
反映 该 维度 特征 的 代表 性 ， 能 够 使 后 续 遗 传 算法 的 特征 搜索 与 
选择 的 性 能 更 优 ， 鲁 棒 性 更 强 。 
2.3 ”基于 遗传 算法 的 特征 选择 方法 

本 文采 用 了 基于 遗传 算法 的 启发 式 特征 选择 方法 ， 首 先 综 
每 个 特征 的 同类 最 近邻 和 异类 最 近邻 评估 其 特征 权重 ， 并 结 
该 权重 计算 特征 适应 度 ， 以 此 引导 遗传 算法 的 特征 搜索 ， 提 
升 大 数据 环境 下 特征 选择 的 精确 度 。 具 体 的 操作 步 又 如 下 。 


la 


人 人 
口 
人 
口 


a) 随 机 生成 初始 种 群 ={ 式 ,… 芭 }， 种 群 规模 为 y 。 对 解 


空间 进行 编码 、 初 始 化 。 
b) 根 据 设 定好 的 适应 度 函 数 计算 第 7 代 全 部 个 体 的 适应 度 
值 f(x)，i=1,N。 
0o) 综 合 比 较 特征 子 集 的 类 间 、 类 内 距离 ， 以 特征 子 集 的 类 
间距 离 与 类 内 距离 之 比 为 适应 度 函 数 。 


>IRO-z 
YL Mod- ad 
n, 一 1 乞 


i=1 


/= G3) 


其 中 : 表示 特征 子 集 在 大 数据 集 的 均值 向 量 ; xD 表示 特征 


子 集 在 i 类 的 均值 向 量 ; x(i) 表示 第 i 类 的 第 j 个 样本 向 量 ; nn 


. 


为 第 i 类 的 样本 个 数 ，c 为 类 别 数 。 类 间距 离 越 大 ,类 内 距离 越 
小 ， 说 明 该 特征 子 集 的 适应 度 越 高 ， 反 之 ， 类 间距 离 越 小 ， 类 
内 距离 越 大 ， 说 明 该 特征 子 集 的 适应 度 越 低 。 
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dj) 综合 考虑 特征 权重 评估 算法 获取 的 特征 权重 与 其 适应 度 
值 ， 估 算 特 征 选取 概率 ， 从 上 一 代 种 群 x',…,xt 中 下 一 轮 秋 代 
的 种 群 xx 。 其 中 x 被 选择 的 概率 为 


px) = FG) 1 
D2) Fx) 


e 以 相同 的 概率 从 更 新 的 种 群 x1,.…, x 中 选择 两 个 个 体 ， 
以 概率 p 完成 染色 体 的 交叉 重组 。 同 时 ， 以 概率 已 对 个 体 的 某 
基因 位 进行 突变 ， 获 取 新 一 代 的 种 群 va 。 获 取 
xxx 中 适应 度 值 最 高 的 个 体 er2 。 

有 比较 wz 的 适应 度 值 , 若 大 于 等 于 相关 的 适应 度 阔 值 , 或 
迭代 次 数 已 经 达到 最 大 , 则 终止 过 程 ,输出 x? ; 否则 , 令 /41， 
跳 转 进入 步骤。 

外 从 大 数据 p 选择 适应 度 的 排名 前 个 特征 ， 组 成 特征 子 
二 


3 ”实验 结果 及 分 析 


实验 数据 主要 基于 业界 标准 的 UCI 数据 库 ， 从 中 选取 比较 
具有 代表 性 的 10 个 数据 集 作为 测试 数据 。 数 据 集 的 具体 信息 
见 表 1 。 在 本 文 的 UCI 数据 集 03 实 验 中 , 上 值 设置 为 10。 每 次 
测试 轮流 选择 1 个 数据 集 作为 独立 的 测试 数据 集 ， 其 余 9 个 数 
据 集 作为 训练 模型 。 该 测试 数据 集 包 含 10 个 多 分 类 的 数据 集 ， 
样本 数 为 150~569， 特 征 数 规模 为 4~255。 这 10 个 数据 集 数据 
类 型 各 不 相同 ， 数 据 特征 具有 广泛 的 代表 性 ， 能 够 全 面 有 效 地 
衡量 和 比较 各 种 算法 特征 选择 的 性 能 指标 。 实 验 环境 为 Lenovo 
M9620T 的 台式 电脑 ，Intel 6 CoreGM i3-3240 3.39 GHz CPU， 
4.0 GB 内 存 ，Windows7 64 位 操作 系统 ， 软 件 环 境 为 MATLAB 
R2010b。 

为 全 面 比 较 本 文 算法 与 同类 特征 选择 算法 的 性 能 ， 实 验 将 
其 分 别 与 GA_SVM 算法 I (基于 遗传 算法 ) 、ReliefF 算法 [1 
(传统 特征 选择 算法 ) 进行 比较 。 GA_SVM 算法 、ReliefF 算法 
分 别 是 各 自 领域 内 具有 代表 性 的 算法 。 表 2 是 本 文 算法 与 基于 
遗传 算法 方法 的 分 类 准确 率 比 较 结果 。 在 实验 中 ， 失 代 次 数 / 
一 般 依据 经 验 或 者 多 次 实验 获取 , 10 次 重复 计算 以 估计 两 种 方 
法 在 UCI 数据 集 上 的 分 类 准确 率 , 得 到 的 分 类 准确 率 以 平均 百 
分 比 二 标准 差 来 表示 。 

如 表 1 所 示 , 在 10 个 数据 集中 ， 由 于 Iris 数据 集 的 特征 数 
与 类 别 数 较 少 ，GA_SVM 算法 与 本 所 算法 的 分 类 准 
在 其 余 9 个 数据 集 上 ,本文 算法 的 性 能 都 优 于 GA_SVM 算法 ， 
分 类 准确 率 都 有 了 不 同 幅 度 的 提升 。 同时, 只 有 在 Dermatology 
数据 集 上 ， 本 文 算法 分 类 准确 率 的 标准 差 略 高 于 GA_SVM 算 
t 余 9 个 数据 集 上 ， 本 文 算法 分 类 准确 率 的 标准 差 都 要 低 
于 GA_SVM 算法 , 这 说 明 本 文 算法 在 分 类 准确 率 、 分 类 稳定 性 
上 都 要 优 于 GA_SVM 算法 。 
表 3 是 本 文 算法 与 传统 特征 选择 算法 的 分 类 准确 率 比 较 结 
果 。 同样 地 , 在 实验 中 10 次 重复 计算 以 估计 两 种 方法 在 UCI 数 
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据 集 上 的 分 类 准确 率 ， 得 到 的 分 类 准确 率 和 选择 特征 数 以 平均 ， 量 。 同 时 ， 本 文 算法 特征 选择 的 稳定 性 也 有 一 定 程度 的 改善 。 


百分比 + 标准 差 来 表示 。 综合 而 言 ， 本 文 的 特征 选择 算法 能 够 高 效 准 确 地 获取 大 数据 特 
如 表 3 所 示 , 相 比 传统 的 ReliefF 算法 , 本 文 算法 在 分 类 准 ， 征 子 集 ， 能 够 显著 降低 大 数据 后 续 分 析 、 处 理 的 计算 复杂 度 。 
确 率 、 选 择 特征 数 上 的 性 能 改善 更 为 明显 。 在 10 个 数据 集中 ， 表 3 本 文 方法 和 不 带 特征 染色 体 遗 传 算法 的 实验 结果 
相 比 ReliefF 算法 ， 本 文 算法 的 分 类 准确 率 都 有 了 不 同 幅度 的 Table3 Experimental results of this method and genetic algorithm 
提升 ， 选 择 的 特征 数 均值 也 小 于 同类 算法 。 同 时 ， 在 Iris 数据 without characteristic chromosom 
集 上 , 本 文 算法 分 类 准确 率 的 标准 差 略 高 于 GA_SVM 算法 , 其 本 证 本 文 方法 ReliefF 算法 
余数 据 集 上 的 标准 差 都 低 于 ReliefF 算法 ; 在 Dermatology 数据 wi 分 类 准确 率 % 选择 的 特征 数 分 类 准确 率 % 选择 的 特征 数 
集 上 , 本 文 算法 选择 的 特征 数 标准 差 略 高 于 GA_SVM 算法 , 其 Iris 4 100.00+0.00 1.240.28 96.00+3.44 1.840.38 
余数 据 集 上 的 标准 差 都 低 于 ReliefF 算法 ， 这 说 明 本 文 算法 在 Dermatology 34 99.00+1.66 13.943.45 98.5742.02 15.443.32 
分 类 准确 率 、 分 类 稳定 性 上 都 要 优 于 ReliefF 算法 , 具有 最 高 的 Glass 9 86.1041.97 3.74126 81.9745.34 5.141.63 
分 类 准确 率 、 最 少 的 选择 的 特征 数 。 Handwrite ~ 255 95.5642.34 11.241.71 91.7442.32 12.342.72 
表 1 选择 测试 的 UCI 数据 集 Ionosphere 34 99.43+1.21 10.3+1.76 94.80+2.10 11.8+3.33 
Table 1 Select UCI data sets for testing WDBC 30 93.59+2.14 6.2+1.12 91.11+2.58 7.0+1.05 
数据 集 样本 个 数 特征 数 类 别 数 WPBC 33 93.8443.18 2.540.88 90.0445.14 2.940.99 
Handwrite 323 255 ei Wine 13 100.00+0.00 4.2+0.50 99.44+1.76 4.6+0.72 
WPBC 194 33 2 Thyroid-disease kl 88.24+1.47 2.8+0.99 81.43+7.29 3.2+1.14 
Thyroid-disease 215 | 3 Heart disease 13 89.60+0.71 5.2+2.15 86.81+3.64 6.7+3.16 
Glass 214 9 2 、 
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